LT会 第3回
Summary
TLDRこのスクリプトは、最先端の機械学習モデル「空」の紹介と、その能力や特徴、学習方法、生成した動画の例などを詳しく説明しています。空は従来の動画生成AIを凌駕し、高品質で長時間の動画を生成することができ、複数のキャラクターやシーンの再現にも優れていることが示されています。大規模モデルによってシミュレーション能力が向上し、3次元の整合性や物体の相互作用などの表現が可能になったことが強調されています。また、今後の課題や安全性への取り組みについても触れられています。
Takeaways
- 🤖 ドリーマーV2は、従来のモデルフリー強化学習と比較して、当たりのタスクにおいて高いスコアを出す能力があることが特徴。
- 🧠 ドリーマーV2は内部モデルを確率的に変化する状態と決定論的な状態を組み合わせることで、より柔軟に状況を予測できるようになった。
- 🎥 オープンAIから公開された動画生成AIシステム「Imagen」は、1分程度の長い動画を高品質で生成できる。
- 📝 Imagenはテキストだけでなく、画像や動画をプロンプトに入力することも可能。
- 🌉 Imagenは3次元の整合性やオブジェクトの相互作用、デジタル世界のシミュレーションなどの能力が発現した。
- ⚠️ Imagenは一部の物理現象の正確な再現や、オブジェクトの突発的な出現など、まだ課題があることも確認された。
- 🔮 オープンAIは今後もモデルをスケーリングすることで、これらの課題を解決していく方針。
- 🔒 オープンAIは生成された動画を判別する分類器の開発や、不適切なコンテンツを排除するための対策を講じている。
- ✨ Imagenが生成する高品質な動画は、映像制作の幅を大きく広げる可能性がある。
- 🌐 Imagenはデジタル世界をシミュレーションする能力を持つため、世界モデルの環境として活用できるかもしれない。
Q & A
1. ドリーマーV2モデルの主な特徴は何ですか?
-ドリーマーV2モデルは従来のモデルフリー強化学習手法よりも高いスコアを出すことができ、当たりのタスクをクリアしやすくなっています。また、内部状態を確率論的に変化させることで、より柔軟な予測が可能となっています。
2. ドリーマーV2モデルの内部状態はどのように表現されていますか?
-内部状態は、決定論的な部分とカテゴリカル分布で表される確率論的な部分の2つから構成されています。カテゴリカル分布を用いることで、次の状態の繊維を予測しやすくなっています。
3. ドリーマーV2モデルはどのような学習方法を採用していますか?
-ドリーマーV2モデルは変分自由エネルギーに基づく学習方法を採用しており、これはVAEで用いられる変分ベイズ法と同じ考え方です。また、確率分布への勾配伝播にはスパイキサンプリングという手法が用いられています。
4. スタイルガンがドリーマーV2モデルで生成された動画について、どのような特徴がありますか?
-スタイリッシュな女性が東京の道を歩いている動画は、プロンプトに忠実に従って生成されています。衣装や動作、背景などの細かい指示が再現されており、反射やサングラスの映り込みなども自然に表現されていました。
5. 動画生成AIである空の主な特徴は何ですか?
-空は最長1分の長い動画を高品質に生成できるほか、複数のキャラクターや特定の動きを含む複雑なシーンも生成可能です。テキストだけでなく画像や動画もプロンプトに使用でき、様々な編集や操作が可能です。
6. 空はどのような手順で動画を生成していますか?
-まず動画を空間的に圧縮し、トランスフォーマーが扱えるようにパッチ化します。次に、ディフュージョントランスフォーマーを用いて圧縮された動画を生成し、最後にデコーダーで元の動画に戻す、という手順を踏んでいます。
7. 空の大規模化によってどのような能力が発現したと考えられていますか?
-大規模化により、3次元の整合性維持、ビデオの一貫性保持、物体との相互作用の再現、デジタル世界のシミュレーション能力などが発現したと考えられています。
8. 空にはどのような限界が指摘されていますか?
-物理現象や物体の出現の正確な再現がまだ課題となっています。例えば、ガラスが割れる際の破片の飛散や、物体が突発的に増えるような現象を適切に表現できていないことが指摘されています。
9. オープンAIは空に関してどのような安全対策を講じていますか?
-生成された動画を識別する分類器の開発、メタデータの埋め込み、不適切なプロンプトを検出する分類器の開発、ポリシーチェックなどの対策を講じています。
10. 発表者の空に対する感想や期待はどのようなものでしたか?
-発表者は自然現象の再現能力に感銘を受けましたが、物理現象の再現には課題があると指摘しています。また、世界モデルの環境として空が利用できる可能性に期待を示しています。
Outlines
🗣️ 世界モデル論文の紹介
この段落では、ドリーマーV2という世界モデルの論文を紹介しています。ドリーマーV2は従来の強化学習手法より優れた成果を上げており、特に当たりのタスクにおいて高いスコアを叩き出すことができます。内部モデルを確率論的に変化するカテゴリカル分布で表現することで、次の状態の遷移を予測しやすくなりました。また、決定論的な部分と確率論的な部分を組み合わせたアーキテクチャを採用しています。
🧠 内部モデルと確率的状態の説明
この段落では、脳内の内部モデルと、ドリーマーV2における確率論的な状態表現について説明しています。内部モデルとは、外部情報を抽象化して脳内に持つモデルのことです。ドリーマーV2では、確率論的に変化する内部状態をカテゴリカル分布で表現しています。これにより、次の状態の遷移を柔軟に表現できるようになりました。RNNの内部状態とエンコーダーで抽出した情報から、確率分布を生成しています。
🔀 内部状態と確率分布の詳細
この段落では、内部状態と確率分布の具体的な関係について詳しく説明しています。内部状態は決定論的な部分と確率論的な部分から成り、RNNの内部情報とエンコーダーから抽出した情報を組み合わせて生成されます。確率分布はカテゴリカル分布を使用しており、次の状態の遷移を予測するために使われます。ロス関数としては、画像の再構成ロス、報酬予測ロス、割引率予測ロス、そしてケルダイバージェンスロスが使われています。
📐 ケルダイバージェンスロスの役割
この段落は、ケルダイバージェンスロスの役割について説明しています。ケルダイバージェンスロスは、内部状態のみから予測された確率分布と、外部情報も利用して予測された確率分布の差を最小化することで、外部情報の影響を調節する役割を果たします。これにより、内部状態のみから状態遷移を予測できるようになり、また外部情報を完全に無視することも防げます。アルファ値を導入することで、この調整を適切に行えるようになっています。
🎯 強化学習の適用と利点
この段落では、学習された内部モデルにアクター・クリティック法を適用し、強化学習を行う方法について説明しています。内部状態のみを使って強化学習を行うことで、マルコフ過程が成り立ち、N-ステップ先までのTDターゲットを拡張できるようになりました。これにより、長期的なシミュレーションが可能になり、従来の環境ベースの手法よりも優れた結果が得られることが期待できます。また、計算コストの削減も利点として挙げられています。
🎥 動画生成AI「Everest」の紹介
この段落では、OpenAIが開発した動画生成AI「Everest」について概要を説明しています。Everestは、テキストプロンプトから高品質な最長1分の動画を生成できます。他のモデルと比べて、より長い動画生成が可能で、キャラクターの動きや背景の詳細な再現もできます。トランスフォーマーベースのアーキテクチャを採用し、様々な画像データで学習されています。計算リソースや学習データについての詳細は不明です。
🔍 Everestの学習方法の概要
この段落では、EverestのおおまかなAI学習方法について説明しています。まず、動画を空間的に圧縮し、パッチ化して単語のようなユニットに変換します。次に、ディフュージョントランスフォーマーを使ってこれらのユニットから動画を生成するよう学習します。学習の際には、ノイズを加えてクリーンな動画を予測するよう学習を行います。また、スケーリングを行うことで、動画生成の品質が向上することが示されています。
🛠️ Everestの学習データと手法
この段落では、Everestの学習データと手法についてさらに詳しく説明しています。従来は解像度や秒数を統一したデータを使っていましたが、Everestでは元の動画サイズのままで学習を行いました。これにより、サンプリングの柔軟性が高まり、様々な解像度や長さの動画生成が可能になりました。また、フレーミングと構図の改善にもつながっています。動画をパッチ化して空間的に圧縮し、ビデオエンコーダーとディフュージョントランスフォーマーで処理することで学習が行われています。
✍️ Everestによる動画生成の例
この段落では、Everestによる実際の動画生成の例が紹介されています。テキストプロンプトから、詳細な説明文を生成し、それをもとにEverestが動画を生成します。プロンプトには、キャラクターの外見や動作、背景の様子などが記述されており、生成された動画はこれらの条件を忠実に再現しています。また、画像や動画をプロンプトに使うこともでき、編集やシームレスな結合なども可能です。一例として、動画とテキストを組み合わせて動画の背景や雰囲気を変更する例が示されています。
💥 Everestのエマージェント能力
この段落では、大規模化によってEverestに発現した能力、いわゆるエマージェント能力について説明しています。3次元の整合性が取れ、物体の大きさや視点の変化が自然に表現されています。また、ビデオの一貫性も維持されており、一時的に画面から離れた物体の位置関係が保たれています。さらに、人間と物体の相互作用も適切に表現されていますが、物理現象の再現には課題もあります。加えて、デジタル世界のシミュレーションも可能になり、Minecraftのような世界を生成できるようになりました。
⚠️ Everestの限界と課題
この段落では、Everestの限界と今後の課題について述べられています。物理現象の再現については、まだ不十分な点があり、ガラスの割れ方やオブジェクトの突発的な出現など、自然な再現ができていない部分があります。今後は継続的なスケーリングによってこうした問題を解決していく方針であり、さらなる大規模化が有望な道であると述べられています。
🔐 Everestの安全対策
この段落では、OpenAIがEverestの安全性を確保するために講じている対策について説明しています。生成された動画を判別する分類器の開発、動画へのメタデータ埋め込み、プロンプトのコンテンツ分類、動画のポリシー適合性チェックなどの取り組みが行われています。時間をかけて安全性を確保しながらシステムを完成させていく方針であり、実際の使用例から学びながら改善を重ねていく計画です。
💭 Everestに対する総括と感想
この段落では、発表者がEverestに対する総括と個人的な感想を述べています。様々なプロンプトを受け付けることで映像制作の幅が広がったこと、自然現象の再現能力の高さなどが評価されています。一方で、物理シミュレーションの活用可能性や、世界モデルにも応用できる可能性などにも期待が示されています。また、OpenAIのサイトやレポートの内容を紹介し、興味のある人にはインタラクティブな操作が可能なので見てみることを勧めています。
Mindmap
Keywords
💡モデルベース強化学習
💡ドリーマーV2
💡動画生成AI
💡拡張可能性
💡プロンプト
💡エマージェント能力
💡セーフガード
💡物理シミュレーション
💡スケーリング
💡世界モデル
Highlights
最近の世界モデルについて発表する。世界モデルの基本的な考え方は、従来のモデルフリー手法に比べてサンプル効率が良いことである。
ドリーマーV2は従来のモデルフリー手法より高いスコアを出し、当たり(ゲームクリアなど)をクリアしやすくなった。
内部モデルを確率論的に変化する状態として表現し、決定論的な状態と組み合わせたレントステートスペースモデル(RSSM)を使用している。
RSSMではカテゴリカル分布を利用して次の状態の遷移を予測しやすくした。
ロス関数としてイメージ再構成誤差、報酬予測誤差、割引率予測誤差、ケルダイバージェンスを用いている。
内部状態のみで次の状態を予測することで、マルコフ過程が成り立ち、従来よりもはるかに長いステップ先までTDターゲットを伸ばせるようになった。
次に発表するのは最近話題の動画生成AI「Cosmic Video」について。従来よりも長時間の高品質な動画生成が可能になった。
動画生成時は、テキストプロンプトをGPTで詳細なキャプションに変換し、そのキャプションをビデオモデルに送信する。
画像やビデオをプロンプトに入れることで、生成した動画を編集したり、2つの動画を結合したりすることが可能。
大規模化により、3次元の整合性、ビデオの一貫性、世界との相互作用、デジタル世界のシミュレーション能力が向上した。
3次元空間の理解力が向上し、視点の変化に従って物体の大きさを自然に変化させられるようになった。
フレームから外れた物体の存在位置を維持できるようになり、長期的・短期的な関係性を1つの動画で表現できるようになった。
人とオブジェクトの相互作用(ハンバーガーを食べる、ガラスが割れるなど)のモデル化にはまだ課題がある。
「Minecraftの世界」といったプロンプトから、デジタル空間のシミュレーション映像を生成できるようになった。
今後はさらにスケールを上げていくことで、これらの課題を解決できる可能性があると考えられている。
Transcripts
あと19時3分になりましたのでまこれ
から第3回アカデミクス会始めていきたい
と思いますで今日今回タイムラインとして
はえ最初の20分間で関しては最近の世界
モデルについ
てに発表していただいてあと後半えあと
20分は最近話題の動画生成Aについて
自分が発させていただきますではえさん表
の準備ができましたらよろしくお願いし
ますあ
はいちょっと共有しますはいありがとう
ござい
ますあ見えてますかはい今画面共有中であ
多分見えてると思いますあ分かりました
はい
えっと
せあのタイトルがあの最近の世モデルに
ついてっていうことででまえっとま結局
ただの論文をま論文1本紹介しようかなと
思ってでこれあのま結構世界モデルの中だ
と有名なドリーマーV2まえっとその前に
ドリーマーっていうえっとま論文があって
それのなんかえっとまなんだろうえと後続
ででえっと何がすいかって言うとま当たり
のえっとスコアでこれまではあのこれです
ドリ
がマV1はま今まで従来あったモデル
フリーの強化学習手法に対してまやっぱり
当たりとかだと当たりのベンチマークだっ
たりするとやっぱり負けちゃうっていう
ことがあったんですけどこのドリーマーv
はなんか結構当たりにあのまあなんだろう
専念するっていうかま当たりをクリアし
やすいようにま結構改良されてそれによっ
てあのモデルベースにも関わらずあの従来
のモデルフリー施行よりも高いスコアを
叩き出したっていうことが結構まなん
だろうこの論文のすごいところででまじゃ
早速内容に入っていこうと思うんですけど
えっとあすいません僕もちゃんと理解し
きれてるかって言われと微妙なんでまあの
なんとなくでいきますえっとまず
まあえっとそうだなどうしようか
な
[音楽]
うんどうやって説明しよう
うんとああまあ普通にまずこの図から説明
していこうと思うんですけどあちょっと
待ってくださいえっともっと分かりやすい
のあった気がするんです
よ
えっと違う
な
うーんこれでいいの
か分かりやすい図が確かあってあそうです
これですねえっとまこれは結構分かり
やすいんですけどえっとままず世界モデ
ルっていうもののえっとま基本的な考え方
としてえっと従来のモデルフィ手法の教科
学習だとえっと何が良くないかって言うと
サンプル効率が非常に悪いっていうのが
あって例えば当たりのゲームってま昔の
ゲセンにあったようななんだろうまあなん
だろう古典的なゲームなんですけどま人間
にやらせてみればまハイスコアを取れるか
どうかは別としてまま23回あればなん
だろううんなんか即負けするみたいなこと
はなくなってまある程度まともに
プレイできるんですよで
もそれを機械学習にやせようとすると
えっと従来のモデルフ手法だとま学習最終
的にできる形としてはもはや人間よりも
高いレベルプレイができるようになるん
ですけどそれまでに何万回っていうあのな
んだろう回数が必要になるんですねでま
時間にま時間その時間はよくわかんない
ですけどでもま何万回も必要っていうのは
まこれなんて言うんだろうサンプル効率が
非常に悪い人間に比べてサンプル効率が
非常に悪いっていうことのまなんだろうま
象徴っていうかでそれを用しようとしたの
が世界手法世界モデルっていうかモデル
ベースのま機械学習ででえっとそれをどう
改良するかっていうと
えっとうんとどうしようか
な
えっとすごい分かりやすい図があっ
て
[音楽]
うんとあこれですえっと人間がえっとま脳
の中に持っているとされる内部モデルって
いうものがあるんですねでこれって何
かって言うとまつまり外部の情報をてそれ
をそのまま使うんじゃなくて脳の中でまな
んだろうえっとあるモデルとして持ってる
でそのモデルはま別になんか画像のような
まなんだろうだから64か64ピクセルと
かそういう情報として持ってるんじゃなく
て中化されたまレテレテStateみたい
な感じで持ってるってされてるんですねま
この図が結構象徴的なんですけどだから
例えば自転車を声でる時もま脳の中では
自転車を声でるイメージをもたれ持って
いるんですけどその中えっと余計なん
だろうそれは抽出された情報で余計な情報
とか入ってないっていうまそういうもの
ですねでまそれが機械あの世界モデル
モデルベース教科学習の基本的な考え方
で
でちょっとごめん
なさいでえっとでそれそれからの進化と
えっとそれの進化の過程でま1つあった
変化がえっとそれまではえっとだからノ
内部モデルの象徴内部モデルを表すものと
してそれまではrnnのなんだろう内部
状態って言うんですかそれを利用しててで
もそれってすごい決定論的な
ものでいや違うなごめんなさいえっと説明
の順番しようかな
えっとワールドモデルっていう論文の中で
案されたものは
えっとあれですねあの確率論的に変化する
だから内部モデルを持っていてその内部
モデルが例えばガウス分布の分散と平均を
出力してそれに基づいてサンプルする
みたいな確率的なえっとなんだろう状態が
確率的に変異していったんですねでも状態
って別に確率的な部分と決定論的な2つの
部分があって例えばえっとある部屋を見
てるとに部屋の中のものは基本的に位置は
変化しないし
えっと例えばで注目したいものは例えばえ
例えば部屋の中に何かがあってそれが動い
てるとしたらそれは確率論的に変異する
みたいなだからその2つの側面があってで
だからそれまでえっとデタだから決定論的
なえっとrnnと
えっと決定論的なものとえっと確率論的な
ものを組み合わせたっていうのがこの
レントステートスペースモデルあの
rssmってやつでこれがまずえっとま
世界もあのこのドリーマvsの中でも使わ
れている
とでどういう仕組みなのかって言うと
まず
えっとままずがえっとどうしようかなうん
まずまrnnの内部内部情報ごめんなさい
何て言うのかちょっと忘れちゃったんです
けど内部情報があってそれと同時に
エンコーダーですねvaeとかで使われる
エンコーダーを使ってXあえっとまこれは
えっとまずモデルを学習する段階ですね
あの内部モデルを学習する段階ではまず
外部から画像が入力されてそれを
エンコーダーでま情報を抽出するとでそれ
がまずあ情報を抽出するでえっと内部
モデルま内部情報として持っているHが
あってこの2つによってまこのZですねZ
は
確率確率的なものです
えっとでこのZを2Zを出力するとでこの
Hだけ単独でもう1つZを出力するとで
このZえっとで先行のドリーマーっていう
研究からこれがどう変化したのかって言う
と先行のドリーマーでは
えっとそう
だうんこれ
えっとあそうですねまこれの図が結構象徴
的なんですけど先行のドリーマーでは
えっとこのようなまえっとガウス分布です
ね単方のガウス分布をままいくつかあの
重ねてあガウス分布がまいくつかある
みたいなそういうなんだろうえっと内部
内部情報そういうそういう形で内部情報と
して持っていたんですねでもこれだとま
この図がすごく分かりやすいんですけど
このその次の状態にいくつも繊維できるん
ですけどあのこのいくつもの状態をガウス
分布だと表現しづらいでえっとその代わり
にあのだから連続的なガス分布ではなく逆
に資産的なこのカテゴリカル
分布に変更することでえっと次の状態の
繊維を予測しやすくなったっていうのがま
これの改善点
ででだからま
えっとそうですねだから過がオリある分布
がいくつもいくつもま32個ですねこれ
32個重なったものをま内部状態として
持つと内部状態まえっとそね確率的な状態
として持つでえっとまこの式でまずえっと
先ほど説明したように
このXとえっと事前に持っていた
Hからまずえっとこの確率確率的な状態を
出力するとでHはまその前のHTとZZ
えっとその前のHとえっとZ
とあとえっと行動ですね与えらえっと実行
された行動によって次の内部状態が決定
するとでもう1つ出力された確率状態が
あってこれはXだからえっと次に出力され
た画像を使わずにH内部情報だけによって
予測するとでこのZとまZZHATのケル
ダイバージェンスを最初化することによっ
てだから外部のXの画像の情報を頼らずと
も次の内部状態を予測することができる
っていうまつまり内部で内部の情報のみで
予測していくっていうのがまこのrssm
の部分ででま
この予測したZTとだから確率的に変異
する状態と決定論的に変変異する状態をま
えっとコンティーえっと結合してこれをま
えっと内部これを状態としてますえでこの
状態を使って
えっとこの状態を使っ
てこれ
は
んせちょっと待ってくださいえっとこれ
は何をくしてるん
だあそうですねえっとだ
からこのえっとこのま内部状態えっとま
正確には確率論的
な状態とえっと決定論的な状態を合わせた
ま状態からまえっと画像をも再構成するま
つまり予測するっていうのとあとは
リワードえっと報酬を予測するそれから
えっとこれはえっとなんだろうかえっと
なんて言うでしたっけあれ
えっと
えっと割引き率ですね割引き割引き率を
予測するとでなんで割引きを予測する
かって言とあのえっとエピソードつまり
えっとエピソードが終わるに近づいて
えっとこの割り引き率が0になるようにま
事前の学習では与えられるんですねだから
えっと割り引き率も予測することによって
ももうすぐこのエピソードが終わって
しまうつまりまゲームオーバーになって
しまうみたいなことも予測するようにし
てるです
ねでえっとこの家庭がア分をでまここに
書いてあるのこのカテゴリアル分布をどの
ようにして
あのあのなんだろうえっと勾配を通す
かっていうことですねでえっと通常の
ガウス分布だとえっとどこに書いてあるか
な通常のガウス分布だ
とそうですねこの
パラタンメメえっとトリックえっとだから
えっと
メーショントリックっていうものを使って
まえっと勾配をだからサンプルすると勾配
が通らなくなってしまうんですけどえっと
うまい具合に勾配を通す法としてルラ
メタクっていうものがあったんですねでで
もこれカテゴリアル分布だからそれは使い
にくいとでその代わりにえっとどういう
手法を使ってるかていうとまずえっとま
サンプルするえっとまだからカテゴリ分布
からサンプルしてワフトベクトする
とでえっとま元にした露日をまソフト
マックスつまりま確率分布にしてあげると
かま確率だ合計が1の確率分布にして
あげるでこれをサンプルプラスプロプ
マイナスプロプとするんですねで片方
マイナスする方にストップグラディアン
ツっていう関数をつけてあげることによっ
てこれどうなるかって言と準テパの時は
えっとだからここプロスががえプラス
マイナスされてまただのサンプルが
サンプルとして通るとでもえっとバック
プロパゲーションの時はえっとこの
サンプルまで到達した勾配がまプラスなの
でえっとサンプルとプロップスの両方に
勾配が取るとでサンプルの方に関しては
サンプルしてるのでそれ以上勾配は通ら
ないんです
けどえっとプロップスの方に関しては勾配
が通ってくとってソフトマークス関数を
通って露日の方に勾配が通るようになるて
いうそういういうまま勾配の通し方を使っ
ていますでまこれがえっとロス
ファンクションですね
えっとえっとこれはまだからイメージログ
ロスだ
からえっとHTとZTが与えられた時に
えっとその再構成
する最高性誤差ですねまいわゆるその最高
性いかにうまく再構成できたかっていうま
えっとロスとリワードログロスまあとは
ディスカウントログロスだから報酬の予測
誤差とえっとえっとま割引き率の予測誤差
それとケルケールダイバージェンスですね
これ何のケルダイバージェンスかって言と
えっと内部状態とえっと外からの画像の2
つを使っ
て予測された確率分布と内部状態だけを
使って予測された確率分布のケールダ
ケールダイバージェンスを最小化すること
によってだからま内部状態のみによって
えっと状態を予測えっと状態そうですね
確率分布を予測できるようになるとでま
これにベータっていうハイパー
パラメーターがつき
ますそうですねでこれがえっとここに書い
てあるんです
けどえっとこれがまえっとエルボだから
えっと変分なんて言うんでしたっけ
えっと
変分
さちょっと忘れた
なえっと
何あ分ですね変分解えっとだからvaeに
使われる変分解の考え方とかまあとこの
変分自由エネルギーっていうまこれは
ちょっとまた別の分野だと思うんですけど
と同じ式だと捉えることができるだから
えっとワールドモデルだからこの
ドリーマーのこのロスファンクションは
えっとシークエンシャルだからま
シークエンシャルVAvaeだと解釈が
できるってことですねでえっと
まここで何が言いたいのかという
と
えっとあそうですねでえっとまここで主に
説明されてるのはこのケル
ダイバージェンスの部分がどういう意味を
持ってくるのかっていうのとあとどういう
工夫がされてるのかっていうことなんです
けどまず
えっと
このえっとこのZハッとZを近づけること
によってえっとまえっとこのZZの方をま
ポステリアえっとZハッの方をえっと
プライヤーって言うんです
けどえっとまずプライヤーはポステリアだ
からXが与えられた時と変わらないように
内部状態を予測できるようになると同時に
えっと
えっとこのZハットがついてない方のZが
どれくらいXから情報を受け取るのかって
いうのを調節する役も持ってるんですね
このケルダイバージェンスはでその調節
する時にえっとだから外部から情報を
全く外部から情報を全く受け取らないよう
にえっとだ
からえっとこの外部の情報を受け取らない
ようにしてえっと情報の乏しい内部状態だ
からえっとそうですね情報の乏しいこのZ
ハットの方のみを使ってえっと予測しよう
とするっていうことが起こりかねないです
ねこのケルダイバージェンスをロス
ファンクションに組み込むことによってで
それを防ぐためにこのアルフっていう
えっとアルフていうえっとパパラメーター
を導入してえっとケルダイバージェンスを
まずえっとこのポステリアとプライヤーの
ケル
ダイバージェンスのえっとこのストップ
グラディアンレッドドラゴンあるんだ
えっとプライヤーの方をできるだけ学習し
てえっとこのZHATの方できるだけ学習
してえっとこのZに及ぼす影響ZハッとZ
のケルダイバージェンスによってZが学習
できないとかZの情報が乏しくなることを
防いているっていうのがまこのことです
ねでえっとま実際にでこの後例えばでこの
ビヘイビアだからまここまで行ったことで
えっと内部モデルをが学習することができ
たわけですねでその内部モデルを使って何
をするかって言うとえっとアクター
クリティックですねアクタークリ
クリティックだからま来のモデルフリー強
学習のま工作勾配法ですねでまその内部
状態にをだけを使って学習していくとで
内部状態だけを使って学習することによっ
てまずえっとそうですね
ま大丈夫ですかあ切れてないえっとマコフ
程がまず成り立つとまなんでかって言うと
えっとだからその前のその次の状態の
セットはその前のHからしかまえっとなん
だろう影響されないによって決まるわけだ
からま当然マルコフ過程がまず勝定できる
とだからえっとまそれまでの当たりみたい
にえっといくつかのフレームを人1つの
状態としてえっとなんだろうホムDPを
仮定しなくて良くなったんですねでそれと
同時にえっとクリティックえっと
クリティックの方でえっとそうですねTD
ターゲットをえNステップ先まで伸ばす
ことができるでそのま初歩としてこの
ラムダターゲットってのがあるんですけど
だからそれまでは次の状態の報酬と割引き
率かける次のえっとそうですね次の状態の
えっとクリティック
っっていうまそういうだからCステップ先
までしかTDターゲットが伸ばせなかった
のがまだからえっと内部状態だからえっと
この状態から例えば好きなステップ先まで
えっと自分の中でシュミュレーション
できるんですねでシミュレーションする際
にそれまでだと例えば画像が出てきて環境
にアプローチしてるわけですから環境が
それに反応して画像を先生してその画像を
受けてるっていう長い作業だったのがま
ただのさまいくつかのベクトル列の計算
だけで済むようになったのでますごい長い
ステップ先まで自分の中で
シミュレーションできるとでまそれが
ドリームだから夢を見てるよっていうこと
でまドリーマーなんですけどだからまN
ステップ先までTDターゲットを拡張
できるでそれがまクリティックのロス
ファンクションでアクターのロス
ファンクションはすいませんえっと僕も
よく分かってないんです
けどなんか
色々色々なものを組み合わせてるですごめ
ここはちょっと僕ももよくわかんないので
そうです
ねはいまそうですでこれがまドリーマV2
の大体のえっと概要ですあまこれで発表
終わりですすいませんあの本当はちょっと
実際の動いてる状態を動いてる様子を見せ
たかったんですけどあのちょっと環境構築
でちょっと手間取っちゃっ
てはいありがとうございましたあ発表は
ありがとうございました質問とかあるから
いらっしゃったらあのチャットでも拒否で
もいいのでお願いします
あじゃすいません1点だけいいですかあ
はいあのそのえっとどこだっ
けえっとカテゴリから分布を使っ
てその画像をえっと潜在変に変換する
ところ入れてるんでしたっけ
リえそうですねカテゴリアル分布のま確率
的なえっと状態とまあとはえっとrnnが
ま内部状態として持ってるものをま結合さ
せてあの決定論的なものとま確率論的な
ものをの2つを組み合わせた状態からま
画像を生成するみたいなうんなんかその
どっかで聞いたことあるんですけどあの
ドリーマv2ってはいVQvaeに変えた
みたいな話をどっかで聞いたことあるん
ですけどでも結局その自分も1回ドリーマ
V2のロブ読んだことあってでも結局
そのあのカテゴリカル分布えっとですね
なんだっけな難しいすよね
えっとあそうだえっと結局そのロスの
ところで
あのパラメータートリックの代わりに
なんか変わったトリック使ってたじゃない
ですかはい結局これっていうのはこの場所
で
その確率分布にも勾配を通してい
るっていう認識であってるんですかねこの
確そうですねだからえっと確率分あだから
えっとまずRNAの内部状態とえっとこの
エンコーダーからこの確率分布を生成し
てるんだけどだからそのコーダーとえっと
ま内部状態から生成するところていうのは
ま学習が必要だからでもサンプルだと
サンプルしただけだと勾配がそこで止まっ
ちゃうからそうですさえっとパラメーター
をあまその何工夫をして
るっていうじゃなんかここであのそこまで
勾配通すように工夫していてなんかその
ロスすいませんロスカ数のところであな
vkvとかって結局そのなん
だろう理3分布のところ飛ばして勾配通し
て最後にソス関数のところで学習する
みたいなああえっとうんとどうなんだろう
なえっとそれとはちょっと違うというか
なんかいやでもVQvaeああそっか
うんとパッと答えられないんですけど
多分ああだから言いたいこととしてはもう
ここ飛ばしちゃってあだからエンコーダー
に直接通せっていうことですよねそうです
そうですそう
ですあどうなんだろうな
えっとまそこが根本的に違う気がしていて
VQvae
とああすいませんうんとちょちょっとあの
このこの後の発表が終わったちょっと今
調べてますあすいませんごめんなさいあ
全然
あの
なんかそうですねなんかちらっとVQVA
使ったのがVドリマV2だよってこと聞い
たことがあってでもああ僕もちょっと論文
読んだ時にまなんかやり方として似てる
なっていうあそうそうですよね3あ実際
VQVAもなんかえっとえっとさっき話し
たなんて言うんだろうあの何えっとだから
エンコーダーのえっと
なんだろうアルファを導入して
そのああえっとあそうですねあ学習が
うまくいくようにあのアルファ導入して
えっと勾配が通る量をま変えるみたいな
ことはVQVAでも実際にやってて
うんでもえっとあで確かにvkvだと
なんかレコーダーから出た勾配そのまま
コーダーに繋げちゃってるんですよねで
その中のそのテーブルえなんだえっと
潜在変数あれって結局なんかテーブル用意
してそれぞれルジ動計算し発させるみたい
な感じであそこの勾配は結局損失関数で
直接そこあのなんて言うんだろうその最高
性誤差プラスそこの誤差みたいな感じで
付け出しちゃって感じなんでそうなんか
なんかでもこの今回のやつだとちょっと
そのまま勾配通せるようなテクニック使っ
てるから違うんじゃないかなっていうだっ
たんですけど
ああ聞いちゃいましたありがとうござい
ますあそうですねちょっと違う感じです
そうそうですあああれあれあありがとう
ございますあありがとうございますなんか
他質問あったらお願いし
ますチャットとか大丈夫です
かじゃなさそうだったらち自分の方をさと
やっちゃい
ます
あんまり時間もないのであのちょっとやり
たいなと思うんですけどま今回はその最近
話題の動画生成A空についてあの発表させ
ていただきます東京理題社会Pさんの論
ですえっとまず概要としては皆さんご存知
だと思うんですけど最近オープンAから
めちゃくちゃ話題になってるあの空って
いうテキストから動画を生成するAIって
のがま発表されましたとでまえどういう
ことがあったかって言うとまえっとこの
このAIが公開されたというよりはこの
AIが生成した動画だったりとかまその空
のなんて言うんでしょうレポートがま公開
されたっていうよな状態になっていますで
そのま空の概要としてはまさえっと近年
混乱だとされていた動画生成タスクにおい
てトランスフォーマーをベースとした
アーキテクチャーでま多様な動画画像で
大協学習さることでえ画像品質を保持した
まプロンプトに中実な最長1分のビデを
生成可能にしたってことになりますで
えっとま現在の状態としてはそのえっと
セキュリティ専門組織おそらくオープン
エアの組織だと思うんですけどその組織と
ま一部のクリエイターが利用可能になって
いてまその今後のえっとモデルの発展だと
かま安全なシステムの構築を進めるために
ま今えっと動いてるってところです
ちょっとリリースに関しての情報はなかっ
たんですけどまそろそろ来るのかなって
個人的には思ってますでま今回の流れとし
ては最初に特徴を述べてどうやって学習し
てるのかで今回そのテクニカルレポートを
ベースにしてるんですけどあまり詳細な
モデルのアーキテクチャーだとか学習方法
が載ってないのでさらっと概要だけ話し
ますであとその後動画生成方法まどういう
風に使うのかとかえどういう風に利用可能
なのかみたいなところ話してで次にその
Mrエマージェントミネーション
アビリティズっていうその
トランスフォーマーのその大規模モデルと
かでその大規模化させることによって能力
が発言したのと同様にま今回その
シミュレーションの能力っていうのがその
代規化することによって発言したよって
ところをででそれでその部数のその能力が
発言したのでその発言した能力について
話していってま最後そのオープンAの方針
安全性に対する方針で最後感想みたいな
感じで話していこうかなと思い
ますで最初に見ていただきたいんですけど
まこれがそのソのモデルと他のモデルを
比較したのになってますで注目して欲しい
こととしてはまずその動画の長さですね
えっとだんだん消えてくと思うんですけど
これっていうのはそのそれぞれのAIが
最大限生成できる最大限じゃないですけど
生成できる動画の長さでま明らかに他の
モデルよりも空の方が長い動画は生成でき
てるってところがありますでさっきも言っ
た通り1分最長1分の動画を生成できるの
でもっと長い動画が生成できるっていうの
とあともう1つはあの人のなんて言うん
でしょう再現度合見て欲しいんですけど
一番分かりやすいなステーブルビデオの
この真ん中に写ってる
えっとこの人ですねこの人の足元見て
欲しいんですけどちょっとそのくるって
回転してたりするんですよねでだだけど空
の場合は割とその人間の目にに見て全然
不戦さがないような現ないようにその
えっと再現できているっていうのがま見て
分かるのかなっていう風に思いますで
えっと
それをまとめるとま他の動画生成用
もえっと長時間の動画が生成可能であ
しかも高品質な動画が生成可能になってい
てまさらにその複数のキャラクターだとか
ま特定の種類の動きだったりま背景の正確
なディテールをもつ複雑なシーンを生成
可能になってますまたそのえっと今回
テキストだけじゃなくて画像動画からを
プロンプトに入れることもプロンプトに
入れてま条件つつけることができてまその
条件に中実に動画を再現することも確認さ
れていますでえっと他のえ特徴としては
モデルはトランスフォーマーベースにして
いてま様々な改造とアスペクト比つまり
画像の横と立て長さだとかあとその画像の
あ時間のスケール動画の何分とかの長さと
かまいろんな画像で学習しているって
ところですま個人的にその計算リソースと
かそのもうちょっと学習データスとが気に
なってたんですけどその辺りの記載はあり
ませんでしたでえっとま最初にその学習
方法のま概要について話すんですけど本当
にざっくりした概要で
そのビデオからその自空間的に圧縮しての
トランスフォーマーで扱えるようにそのま
パッチまその単語みたいな形に変換をして
あげてその単語を単語みたいな形を用いて
ディフュージョントランスフォーマーって
言われる結構そのあのど画像生成とかで
よく使われてるモデルなんですけどまそれ
を学習してあげていますでさらにその
ディフュージョントランスフォーマーで
出力したのっていうのはあるその圧縮され
てるものなのでまそれをまデコードつまり
その動画に戻すえモデルもま学習してい
るっていうような流れになってますでま
そのちょっと明く詳細見ていきたいんです
けどそのどうやって圧縮してるのかって言
と段階あって最初にその動画をま公事件
から定時件に圧縮するビデオ
コンプレッションネットワークっていうま
ま多分オ講座ですね応講でま圧縮をしてま
えっと2ステップ目にえスペースタイム
ラテンパツていうモジュールでその圧縮し
た動画をトランスフォーマーが扱えるま
単語みたいな形にえ変換してま空間パッチ
のCケスを注してるというような形になっ
てますでえっとさっき言ったその
ディフュージョントランスフォーマーの
学習方法なんですけどこれはその元の綺麗
な動画に対してノイズを加えてあげてあえ
さらにそのテキストですねテキストを条件
につけてあげて
えっと元の綺麗な
え動画を予測するように学習することで
うまくあの生成モデルってのが学習できる
よでそまそれを使っても今回もやってると
いうようなところになります詳細なえ方法
についてはえっとよくわかんなかったんで
楽しますで
えっと1つ学習方法のとこに述べられた
述べられてたこととしてはその計算量を
増やすことによってそのサンプルの品質
っていうのがま向上してったよっていうの
がまめられてましたで下の図見てその動画
見ていただきたいんですけど左がそのま
基準となるまベースコンピュートって書い
てあるんでどのぐらいの計算量か分から
ないんですけどある基準の計算量からり3
倍に増やしたのが真ん中の動画になってい
てま割と
い犬っぽくなってるって感じはしてるって
いてそれを32倍に増やすとなんか
めちゃくちゃこうガ高改造度の像が生成し
てるのが分かると思いますまこんな形で
そのスケーリング計算量を増やすことに
よってえっと大規模言語モデルと同様に
えっとサンプルの進数が上がるよってこと
を示されてましたでえっとさらにそのどう
いうデータを使ってるのかってところで
えっと従来その動画
生成AIを作る際に使われてたデータって
いうのはあの一般的にその解像度だとか
その秒数とかを統一して学習させたんです
ねなんでここに書いてあるとり256
256のえ4秒の動画にリサイズ
クロッピングしてえっとそれをデータに
使ってたんですけど今回はそういうことを
一切せずに元の動画のサイズで学習を行っ
てますでそれを行ったメリットとして2つ
ああ上げられていて1つ目はサンプル
サンプリングの柔軟性つまりその動画を
生成する際の自由度が上がるってところで
つまりそのめちゃくちゃ公開外の画像も
生成できるしめちゃくちゃが低解像度
めっちゃあ荒い動画も生成できるように
なるので割とその応用が引くっていうかも
ちょっと今回簡単に動画生成したいなと
思ったら割と正解度で出せばいいしみたい
なそういうその応用が引くっていうのが
メリットとして上げられていてま2つ目は
えっとフレーミングと構図の改善っていう
風に言われていてまこれは従来起こってた
問題点としてま正方権トリミングすると
記者体が一部しか映ってない動画が生成さ
れがちだったんですけどまそれが今回リ
リサイとかしてないのでリサイはしてない
のでまそういうことは起こらなかったよっ
ていうのは2つのメリットがああげられて
ましたでえっとまそれがえっと学習につい
ての話になってますで次からはそのどう
やってえっと動画を生成しているのかって
ところを見ていきたいなと思うんですけど
最初にその
テキストのみを用いて生成しているものを
見ていきますでテキストから動画を生成
する際っていうのはま一旦その人間が
何かしらの示は指示を与えるんですけど
けどその指示を一旦GPTを活用してより
詳細な文章まキャプションに変換してそれ
をビデオモデルに送信しているそうですで
ま1例見ていただきたいんですけど見て
いこうと思うんですけどえっとまここに
プロンプトとしてなんスタイリッシュ
ウーマンがえ東京の道を歩いてますとで
さらにそのま状況のあの指示ですよね
さらにその下にえっと彼女が彼女のなんて
着てるものとの指示がブラックレザー
ジャケットとかロングレッドドレスだとか
えブラックブーツとかっていうような
えっとてるものの指示が与えられててあと
動作の指示もこれしてるんですねシウ
confidentアカジュリーと自信を
持ったりと自信持ってカジュアルに歩いて
みたいなあとその背景の指示としてえっと
湿ってる道でえっと色々な色カラフルな色
によってその地面が未来みたいになってる
よみたいな感じあとその
え歩行者がやぱ歩いてるよみたいな指示を
与えてあげるとま右の動画みたいな形でま
あのかなりそのプロンプトにえ忠実に従っ
て動画生成してるなっていうのを見て
感じるのかなっていう風に思いますまその
反射だとか例えばあサングラス映ると思う
んですけどサングラスに反射してる情景だ
とかっていうのもある種あのかなり充実に
再現してるなっていう感想をを自分は抱き
ましたちょっと長いちょっと待ちます
ねいかじゃあ次行きますね中ででえっと
先ほどテキストだけをプロンプトに入れて
たんですけどそうじゃなくて動画とか画像
をプロントにすることも可能で
えっとまそうすることによってま用途が
広がるっていう風に書いてありましたで
具体的に4つ書いてあったんですけど
ちょっと今回時間ないので1つだけ紹介し
ますであの詳細に関してはあのえっと
テクニカルレポートの方にあのサンプルの
映像とかも含めて紹介されてますので
そちらござご覧いただければなと思います
で基本的に4つありましてあの生成した
ビデオの延長とかそのつまり1回生成した
ビデオを長くしたかしたい時にそのこの
続きを続続してみたいな風にすると生成
することもできますしさらにそのビデオと
まテキストを入力することでそのビデオを
自分好みに編集することできたりだとか2
つのビデオを入力してまそれをシームレス
にあのなんて言うんでしょう結合構成する
みたいなこともできたりま単純な画像生成
とかも可能になってますで今回一例だけ
紹介するこれがそのビデオからビデオをを
編集するテキストを使って編集するものな
んですけど1番左がえっと元々の映像に
なってますこの映像に対してテキストを
このこのの動画を入れてあげるとあっと
右指のようなえっとこれはなんかその
1920年代にまセッティングしてとで
さらにその赤い車っていうのは赤い色かな
赤色ってのを保持したままにしてっていう
指示えるとまあの1920年代ぐらいの車
なんですかねちょっとわかんないですけど
ちょっと古めの車でまその背景に映ってる
人々もちょっと古い古い人の格好というか
ま現代とはちょっと違うようなえっと映像
がま生成されていますでさらにその下の方
ではそのピクセルアートスタイルに変え
てっていう風にすると本当にそのなんか
Minecraftに出てくるような
えっと情景になってま生成しているという
感じになっていてまその動画を使動画とま
テキストを使ってま動画を生成できるよう
にはなっているのでよりその動画編集の
えっと可能性を広げるんじゃないかなって
いう風に思いましたでま先ほどえ次の話に
なってくるんですけどま先ほどもちょろっ
と話したんですがその大希望化にて
その多くの教育的なシミュレーション能力
が発言したっていう風に書いてあるんです
けどまそのなんて言うんでしょうあの大
規模言語モデルとかも
そのあの少ない少ないというかあある
ところの計算量とかデータ数ではその全然
解けなかったタスクがあのあるところ境い
にめちゃくちゃ解けるようになったみたい
なその能力が発言したってことがよく言わ
れているんですけどそういうことがまその
今回のえ動画生成にも起こっていてまそれ
がま今回4つに使ったっていうところで
今回ちょっと紹介しようかなと思います1
つ目がえっと3D3次元の整合性が取れて
いるとかあとビデオの一貫性あと世界との
相互作用あとデジタル世界でのシュミレ
ションっていうのがまそのできているん
じゃないかなという風に言われてますで1
つ目の3次元の整合性なんですけどま下の
図下の動画かねていただきたいんですけど
これっていうのがその視点が変わっていく
映像になっていきますでかなりその
もちろんその視点が変わるとあの映る物体
っていうのは必ず大きさ変化させない変化
させないといけないんですけどまそれっ
ていのが人間の目に不自然さがないなく
あのうまくそのなんて言うんでしょう視点
を動かしてるってところがやぱそのモデル
がこのこっから見た時の3次元えっと空間
ってのはこういう風に見えててこっから見
た時にこう見えてるってのが分かっ理解
できているなんかそのナーフみたいな形の
えっと能力もま持っているのかなっていう
風にま3次元空間をまうまく理解してい
るっていう理解できる能力がま発言したと
いう風に捉えられるっていう風に書かれて
ましたで次にそのビデオの一貫性って
ところなんですけどまこの動画見て
いただきたいんですけどこの真ん中に映る
犬が一旦人によって隠れるんですよねで人
によって隠れた後に
えっと動かな人によって一体隠れるんです
けど隠れた後もまた同じ場所に犬がい
るっていうそのフレームから外れたと外れ
てもまそのまに位置するそその存在を維持
することができているっていうところがま
すごい能力だよねっていう風に述べられて
ましたでここには書いてあるその長期と
短期っていうのはさっき言ったその長期的
の関係っていうのはここ
に犬が存在するっていう犬がま長期的にい
るっていうのとま人間が短期的に流れて
るって2つの別々の関係っていうのを
うまく1つの動画でま再現できてい
るってところがますごいところねすごい
能力であるっていう風に思われていますで
えっと今度はそのさっきは別々のなんて
言うんでしょう動きだったんですけどま
それがその総合作用するよってところで
えっと今ハンバーガー食べてるんですけど
もちろん人がハンバーガー食べると
あの神跡が残るはずなんですよねでそれが
ちゃんと再現できていてつまり人が
ハンバーガー食べるとハンバーガーが減
るっていうようなその物体との相互作用
っていうのもま理解してるよっていう風に
え言えると思いますでただこれ面白い時時
きって書いてあるんですよねなんでその
あのこのこの後にもその限界のとこで話す
んですけどあの総合作用がうまく
モデリングつまりそのモデリンググってか
うまく再現できてない場合もあるっていう
ところがまだあってまそれが1つ課題に
なってるところではあります
で最後のエマージェントシミュレーション
カアビリティなんですけどまデジタル
デジタル世界のシミュレーションがまでき
るっていうところでまこれあのプロトに
mineクラフって言っただけでまこの
ような画像を生成してま実際にその
Minecraftを操作してるような
映像が生成されているってところになり
ますまなんでま色々と世界モデルとかにも
応用できるのかなとちょっと思たりようが
しますでさっき言ったその
シミュレーションの限界のに映るんです
けどえっと先ほどのハンバーグはあの相互
作用をちゃんとえっと再現できてたんです
けど左のえガラスが割れる瞬間っていうの
はその破片とかが飛び散ってないんですよ
ねでしかも不自然な割り方をして
るっていうのであのまうまくその物理現象
をま正確に正確に再現できてないっていう
風に言えててえっとまだその物理現象って
いうのはまだ正確に把握できてないよねっ
ていう風に述べられてましたあともう1つ
の問題としてはこあの狼か犬か分からない
んですけど突発増えるんですよね4匹5匹
とか増えたりするんでまこういった
オブジェクトの突発的な出現とかもま確認
されていてままだまだ改善する置がある
よってみたいな話がありましたでえっと
今後に関してないう風に最後にテクニカル
レポ最後の部に書いてあったんですけど
あのこですねあ赤い部分見ていただきたい
んですけどあのシミュレーションの能力を
ま発展させるためにはそのビデオのモデル
をあの継続的にスケールすることがま有望
な道だろうみたいな風に分な道であ
るっていうのをま空が示したと信じてる
みたいなに書いてあるんですけどなんでま
今後もオープンAIはまスケール上げて
いくのもっともっとモデル大きくしていく
のかなっていう感じはちょっとしました
なん
でもっともっとスケール上げていけば
もっとそのさっき言ったまこれらの問題の
解決していくかもしれないなとはちょっと
思っていますでえっと最後にその安全性に
ついてのオープンAの方針なんですけど
えっとま5つあってその動画が空から生成
された中を判別する分類器をま開発して
いったりだとかあとその生成した動画に
対してメタデータを埋め込んでこれがこれ
がそのAIによって作られたってことを
明示してた明示したりだとかあとはえ
えっと既存のそのオーAのえ画像先生
のdatさんの安全策も利用したりあとは
そのプロンプトに用いるテキストにそ不
適切なものが入ってないかっていうの分類
する分類機を開発したりあとそのえっと
生成された動画がそのOpenAIの
ポリシーに順じてるかっていうを確認する
分類器を生成したりしてるというとでした
でえっと実際の使用例から学んでいって
どんどんどんどんえっとでいくってことな
のでま時間かけて完全なAIシステムを
作りリリースするてみたいなことがってい
たって感じですでえっとこれでま通り
テクニカルレポートとあのオープンの
サイトに書いてあることを説明したんです
けど個人的な感想としてはぱそのテキスト
動画画像の様々なプロンプトで
えっと色々
そのま様々プロントは利用可能なのでま
かなりその映像政策の幅を広げるのでない
かなっていう風に感じてますま個人的に
ちょっと面白いてすごいなっと思ってたの
は
その自然現象の再現ってなところはかなり
すごいなと思っててまこの蒸気の再現だっ
たりだとかこのな波の再現と波の表現って
のがま本当に緻密にされていてもしかし
たらそのプを再現
する物理の再現みたいなところまで利用
できるのかなちょっと個人的にはちょっと
期待してたりちょっとやめて欲しいなって
思ってたり部分はあるんですけどそのこと
あとそのま先ほどの
そのデジタル空間のシミュレーションとか
でも話した通りあその世界モデルのアイス
の環境としてま空が使えるかもしれないな
とはちょっと思ってたりしてますですね
ちょでまま今回はこのオープンえこのラの
サイトとテクニカルレポートから書いて
あることを紹介したんですけどこれこの
サイト結構面白いのであのもし時間があっ
たらあのちらっと見ていあそ結構
インタラクティブにえっと操作できるあの
子供もであインタラクできるのでなんか見
てて面白いんじゃないかなと思うのでもし
時間があったら見ていただけるといいのか
なって思いますえっと一通りSし終わり
ましたなんでなんか質問とかコメントとか
あったらえっとちょっとああんでもいいの
でお願いし
ますああの1ついいですかはいお願いし
ますああのあの発表すごく面白かったん
ですけどあのトランあの多分
トランスフォーマーなんでしょうねあの
動画先生っていうのではいであのま僕は
あの実際最近世界モデルでなんか
トランスフォーマーを利用したものがあ
るっていうのは聞いたことあるんですけど
あのトランスフォーマーを利用する際に
例えばドリーマーとかだとあのなんだろう
vaeのえっとつまりなんだろうえっと
潜在表潜在空間がまなんだろう変異してい
くっていうでトランスフォーマーにとって
のなんだろう潜在空間っていうのはどの
部分なんですけどなあまり
トランスフォーマーに詳しくなくて
トランスフォーマーあ結構その世界モデル
とで使われてるトランスフォーマー
ディシジョントランスフォーマーとか
トラジェクトリートランスフォーマーとか
言われると思うんですけどあれは局その
なんて言うんだちょっと1回スライド変え
ます
ね
[音楽]
えっと
多分この今回やってる空とはちょっと違う
んです
けどこれ前発表したマルチゲーム
ディシジョントランスフォーマーってやつ
でこんな感じなんですよね結局そのま
めちゃくちゃ長い多分かなり
バートとかでも大体512ぐらいでしたっ
けトクてそんな感じでそのそれぞれのトク
に対してえっとそれに対応するルレイ
ヤーっていうのが存在するんですよあの
このこで
あの基本
その
えっと許可学習とかでえっと使う場合には
コザルトランスフォーマーとかて言って前
の情報が見えないような状態でこうですね
こんな形でえっとモデルをを使ってい
てあそのなんて言うんでしょうえっとです
ね内部状態
があれです
そのまもちろん
その
lstmみたいな使い回しみたいなことは
トランスフォーマーしないのでま固定され
た
シークエンスの中でまるそのおそらく強化
科だったらエピソードのなんて言うん
でしょう何回あるかみたいな決まってると
思うんですけどまそれ
をなんて言うん
だろこれあのマルチョン
トランスフォーマーはえっとま状態のこれ
えっと
えと画像をパッチに分けて状態を入れて
あげる
とえその報酬を出力するようなものになっ
てその報酬をもう1回入れてあげるとえ
行動が力されるみたいな感じになってい
てなんて言うんだろう
な
[音楽]
うん
なんか
その
あのドリーマーみたいなものっていうのは
シュミュレーションできるじゃないですか
あれてだけどトランスフォーマーは
おそらくシュミュレーションするという
よりかは次の最適なえっと行動を予測する
みたいな感じになるんですよねなんだろう
怪的というかあつまり中が完全にブラック
ボックスみたいなそういうイメージですか
あそうそうですそれそれでで今回この
マルチゲームピショントランスフォー
マーっていうのは酬まで予測してるんです
よでなんでそのこの場合はその最適な作際
的なこのアクションまいその方策に従って
出すんじゃなくてそのその時出力された
報酬に沿ってその射にあったアクションを
出すみたいな感じで工夫をしてたりとかを
してでうんなんでそのまそうですねだから
その内部状態どういう風に表してるの
かって言われるとブラックボックスちゃ
ブラック
ボックスな気がしてきましたそうですね
ブラックボックスがねあれですね
確かああありがとうござい
ますそうです
ね
難しいなんか他に質問かあっ
たらし
ますなさそうなのであればもう8時になっ
たので今日は終わりにしようかなって思い
ますあじゃえ本日の会これで終わりに
しようと思いますえっと今日は
さんありがとうございましたあありがとう
ございましたじゃあ退出していただいて
大丈夫
です
Посмотреть больше похожих видео
5.0 / 5 (0 votes)